什么是直方图?

作者:Ruben Geert van den Berg 归类于 SPSS 图表 & 统计 A-Z

直方图 - 示例

直方图是一种图表,用于显示度量变量的值区间的频率。 这些区间被称为“箱(bins)”,并且它们都具有相同的宽度。 上面的例子使用 $25 作为其箱宽。 因此,它显示了有多少人的收入在 $800 到 $825 之间,$825 到 $850 之间等等。

请注意,此频率分布的 众数(mode) 在 $900 到 $925 之间,出现了大约 150 次。

直方图 - 示例

一家公司想了解 1,110 名从事运营、中层或高层管理级别工作的员工的月薪分布情况。 下面的屏幕截图显示了他们的原始数据。

直方图 - 原始数据

由于这些工资部分基于佣金,因此基本上每位员工的工资都略有不同。 现在,我们如何深入了解薪资分布情况呢?

直方图与条形图

我们首先尝试运行一个月薪的条形图(bar chart)。 结果如下所示。

直方图还是条形图?

我们的条形图几乎毫无价值。 我们从中唯一学到的是,大多数薪水只出现一次,有些出现两次。 这里的主要问题是条形图显示了数据中每个不同值的出现频率

重要的是,请注意第一个区间是($832 - $802 =)$30 宽。 最后一个区间代表($1206 - $1119 =)$87。 但两者在屏幕上的毫米宽度上是相同的。 这告诉我们 x 轴没有线性比例,这使得此图表不适合月薪等度量变量。

直方图 - 基本示例

由于我们的条形图没有任何用处,我们现在尝试对我们的数据运行直方图。 结果如下所示。

直方图 - 示例

此图表看起来更有用,但它是如何生成的呢? 嗯,我们将每位员工的薪水分配到 $25 的区间($800 - $825、$825 - $850 等)。 接下来,我们查找了每个此类区间内的员工人数。 我们通过图表中的条形图来可视化这些频率。

重要的是,我们图表的 x 轴具有线性比例:每个 $25 的区间对应于相同的毫米宽度,即使它包含零个员工。 我们最终得到的图表称为直方图,正如我们稍后将看到的,它非常有用。

直方图 - 箱宽(Bin Width)

箱宽是在直方图中可视化其频率的区间的宽度。 我们的第一个例子使用了 $25 的箱宽; 第一个条形图代表 $800 到 $825 之间的薪水数量,依此类推。 $25 的箱宽是一个相当任意的选择。 下图显示了使用不同箱宽的完全相同数据的直方图。

直方图 - 箱宽

虽然不同的箱宽看起来很合理,但我们认为 $10 对于手头的数据来说太窄了,$100 太宽了。 $25 或 $50 似乎更合适。

直方图 - 为什么它们如此有用?

为什么直方图如此有用? 好吧,首先,图表比表格更直观; 在查看图表 10 秒后,您可以比检查相应的表格 10 秒后更多地了解您的数据。 通常,图表比表格更快地传达有关我们数据的信息 - 尽管准确性较低。

最重要的是,直方图还为我们提供了关于我们数据的更完整的信息。 请记住,您可以合理地从直方图中估计变量的均值、标准差、偏度(skewness)峰度(kurtosis) 。 但是,您无法从上述统计数据中估计变量的直方图。 我们将用一个例子来说明这一点。

直方图与描述性统计

假设我们在数据中找到两个年龄变量,并且不确定我们应该使用哪一个。 我们比较两个变量的一些基本描述性统计,它们看起来几乎相同。

直方图与描述性统计

那么我们可以得出结论,两个年龄变量的分布大致相似吗? 如果你这么认为,请看一下下面显示的它们的直方图。

直方图 - 检测奇怪的分布

分割直方图 - 频率

我们数据中的 1,110 名员工中的每个人都有一个工作级别:运营、中层管理或高层管理。 如果我们想比较这三个群体之间的薪资分布,我们可以检查一个分割直方图:我们为每个工作级别创建一个单独的直方图,并且这三个直方图具有相同的轴。 结果如下所示。

分割直方图 - 频率

我们的分割直方图完全糟糕。 问题在于组的大小非常不相等,并且这些大小与我们直方图的表面积线性相关。 结果是,高层管理人员(n = 10)的表面积仅为“运营”(n = 1,000)的表面积的 1%。 高层管理人员的直方图太小,以至于不再可见。

分割直方图 - 百分比

我们刚刚看到了带有频率的分割直方图对于手头的数据是如何无用的。 这是否意味着我们无法比较不同工作级别的薪资分布? 不。 如果我们选择工作级别组内的百分比,那么每个直方图将具有相同的 100% 的表面积。 结果如下所示。

分割直方图 - 百分比

直方图 - 最终说明

本教程旨在解释什么是直方图以及它们与条形图的区别。 在我们看来,直方图是度量变量最有用的图表之一。 使用正确的软件(例如 SPSS),您可以非常快速地创建和检查直方图,这样做是了解您的数据的好方法。